Z podanego w treści pracy domowej źródła pobrałem do analizy zbiór adult. Zawiera on dane osobowe 48842 osób, na podstawie których przewidywano u każdej osoby, czy zarabia ona ponad 50 tysięcy dolarów rocznie. Dane zostały opublikowane w 1996 (zatem ponad 20 lat temu).
adult <- read.csv("https://www.openml.org/data/get_csv/1595261/phpMawTba")
adult[adult==" ?"] <- NA
# znaki zapytania oznaczamy jako wartości NA
Za pomocą pakietów rpivotTable i ggplot2 dokonam analizy eksporacyjnej niektórych danych.
rpivotTable(adult, rows = "workclass", aggregatorName="Average", vals = "age",
rendererName = "Heatmap", subtotals=FALSE)
ggplot(adult, aes(x=workclass, y=age)) + geom_boxplot() + coord_flip()
Ludzie, którzy nigdy nie pracowali, byli zazwyczaj młodsi od całej reszty. Spośród pracujących z kolei, najmłodszą grupę stanowili zatrudnieni prywatnie.
rpivotTable(adult, rows = c("education.num", "education"), cols = "sex",
aggregatorName="Count as Fraction of Rows",
rendererName = "Heatmap", subtotals=FALSE)
Na każdym etapie edukacji było więcej mężczyzn. Najmniej sfeminizowanymi działami edukacji (mniej niż 20%) były doktorat i szkoła zawodowa.
rpivotTable(adult, rows = "occupation", cols = "race",
aggregatorName="Count as Fraction of Columns",
rendererName = "Heatmap", subtotals=FALSE)
Warto zauważyć, że największy odsetek czarnoskórych miała posada “priv-house-serv”, a azjatów lub ludzi znad Oceanu Spokojnego - “prof-speciality”. Trochę to przypomina znane wizerunki i schematy z popkultury.
rpivotTable(adult, rows = "native.country", aggregatorName="Average", vals="hours.per.week",
rendererName = "Horizontal Bar Chart", subtotals=FALSE)